私は現在、カーネルハッシュテーブルの実装をユーザー空間に公開することを含む、学校プロジェクトの Linux カーネルモジュールに取り組んでいます。
これを実現するために、Netlink ソケットを介して LKM と通信するユーザー空間 API も作成しました。
私は今それを機能させていますが、私はかなり混乱したバンプに遭遇し、本当に頭を包むことができません. そして、問題を理解するのに実際には役立たなかったすべてのドキュメントを読み、「うさぎの穴を下って」Netlinkのソースコードを調べた後、誰かがそうするかもしれないかどうかを確認するためにここで質問をすることにしました何が、なぜ、これが起こっているのかを知ってください。
そこで、問題を切り分けるために、一般的な Netlink ユーザー空間とカーネル空間の通信の例を実行する小さなテスト プログラムを作成しました。これを通じて、ユーザー空間プログラムの 3 つの小さなバリエーションを示します。これらはすべて異なる動作をしますが、それは私が疑問に思っている動作です。
最初はカーネル モジュールです。これは 3 つのバリエーションすべてで同じです。
#include <linux/module.h>
#include <net/sock.h>
#include <linux/netlink.h>
#include <linux/skbuff.h>
#define NETLINK_USER 31
struct sock *nl_sk = NULL;
static void hello_nl_recv_msg(struct sk_buff *skb){
struct nlmsghdr *nlh;
int pid;
struct sk_buff *skb_out;
int msg_size;
char *msg = "Hello from kernel";
int res;
printk(KERN_INFO "Entering: %s\n", __FUNCTION__);
msg_size = strlen(msg);
nlh = (struct nlmsghdr *)skb->data;
printk(KERN_INFO "Netlink received msg payload:%s\n", (char *)nlmsg_data(nlh));
pid = nlh->nlmsg_pid; //pid of sending process
skb_out = nlmsg_new(msg_size, 0);
if (!skb_out) {
printk(KERN_ERR "Failed to allocate new skb\n");
return;
}
nlh = nlmsg_put(skb_out, 0, 0, NLMSG_DONE, msg_size, 0);
NETLINK_CB(skb_out).dst_group = 0; // not in mcast group
strncpy(nlmsg_data(nlh), msg, msg_size);
res = nlmsg_unicast(nl_sk, skb_out, pid);
if (res < 0)
printk(KERN_INFO "Error while sending bak to user\n");
}
static int __init hello_init(void){
struct netlink_kernel_cfg cfg = {
.input = hello_nl_recv_msg,
};
printk(KERN_INFO "Loading kernel module\n");
nl_sk = netlink_kernel_create(&init_net, NETLINK_USER, &cfg);
if (!nl_sk) {
printk(KERN_ALERT "Error creating socket.\n");
return -10;
}
return 0;
}
static void __exit hello_exit(void){
printk(KERN_INFO "exiting hello module\n");
netlink_kernel_release(nl_sk);
}
module_init(hello_init); module_exit(hello_exit);
MODULE_LICENSE("GPL");
そして、ユーザー空間プログラム:
#include <sys/socket.h>
#include <linux/netlink.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <string.h>
#define NETLINK_USER 31
#define MAX_PAYLOAD 1024 /* maximum payload size*/
struct msghdr msg;
int main(){
struct sockaddr_nl src_addr, dest_addr;
struct nlmsghdr *nlh = NULL;
struct iovec iov;
int sock_fd;
sock_fd = socket(PF_NETLINK, SOCK_RAW, NETLINK_USER);
if (sock_fd < 0)
return -1;
memset(&src_addr, 0, sizeof(src_addr));
src_addr.nl_family = AF_NETLINK;
src_addr.nl_pid = getpid(); /* self pid */
bind(sock_fd, (struct sockaddr *)&src_addr, sizeof(src_addr));
memset(&dest_addr, 0, sizeof(dest_addr));
memset(&dest_addr, 0, sizeof(dest_addr));
dest_addr.nl_family = AF_NETLINK;
dest_addr.nl_pid = 0; /* For Linux Kernel */
dest_addr.nl_groups = 0; /* unicast */
nlh = (struct nlmsghdr *)malloc(NLMSG_SPACE(MAX_PAYLOAD));
memset(nlh, 0, NLMSG_SPACE(MAX_PAYLOAD));
nlh->nlmsg_len = NLMSG_SPACE(MAX_PAYLOAD);
nlh->nlmsg_pid = getpid();
nlh->nlmsg_flags = 0;
strcpy(NLMSG_DATA(nlh), "Hello");
iov.iov_base = (void *)nlh;
iov.iov_len = nlh->nlmsg_len;
msg.msg_name = (void *)&dest_addr;
msg.msg_namelen = sizeof(dest_addr);
msg.msg_iov = &iov;
msg.msg_iovlen = 1;
printf("Sending message to kernel\n");
sendmsg(sock_fd, &msg, 0);
printf("Waiting for message from kernel\n");
/* Read message from kernel */
recvmsg(sock_fd, &msg, 0);
printf("Received message payload: %s\n", (char*)NLMSG_DATA(nlh));
close(sock_fd);
return 0;
}
これを実行すると、すべて問題なく、コンソール出力が表示されます。
Sending message to kernel
Waiting for message from kernel
Received message payload: Hello from kernel
および dmesg からのカーネル ログ出力:
[ 3160.679609] exiting hello module
[ 3165.140816] Loading kernel module
[ 3169.678258] Entering: hello_nl_recv_msg
[ 3169.678260] Netlink received msg payload:Hello
しかし、このプロジェクトでは、API を呼び出すマルチスレッド アプリケーションを使用しているため、呼び出し元のスレッドごとに独自の Netlink ソケットを提供したいと考えました。そのために私は作らなければならなかった
struct msghdr msg;
ローカルで宣言された変数に。
問題が発生する
それをメイン関数に移動すると、すぐに壊れました。これは、カーネルが Netlink コールバック関数に入ることさえしない方法であるため、ユーザー空間プログラムはそれに書き込むことさえできないと思いますが、それでも sendmsg() 関数から正しい量の書き込まれたバイトを返します。
これは、msghdr をローカルで宣言した場合のコンソールへの出力です。
Sending message to kernel
Waiting for message from kernel
その後、ハングし、SIGINT を実行する必要があります。カーネル ログには、データを受信している LKM については何も表示されません。
それで、ローカルで宣言されたときにアドレス指定エラーが発生したのではないかと思い始めたので、試してみるために、msghdr をローカルスコープで動的に割り当てられたポインターに変換しました。元の例と同じコンソールとカーネル ログの出力が得られました。
すっごく、私の実際の質問は、実際には教育目的のためのものであり、なぜこのように振る舞うかを理解するためのものです.
グローバルに宣言された変数は機能するのに、ローカルに宣言された変数は機能しないのはなぜですか?
さらに、ローカルで宣言され、動的に割り当てられたポインターが機能するのはなぜですか?
ここで基本的なレベルで何かが欠けていますか?
TL;DR:
msghdr 構造体をユーザー空間プログラムでローカルに宣言すると機能しないのに、グローバルに宣言されたポインターまたはローカルの動的ポインターは機能するのはなぜですか?