المزيد من الزوبعة حول لا شيء … أو لماذا الضجة حول البيانات الكبيرة والذكاء الاصطناعي (IA) غالبا ما تكون حول التسويق الذاتي أكثر من الوقائع والتقدم الحقيقي.

في عام 2010 ولأول مرة، قدم الرئيس التنفيذي السابق لشركة Google، إريك شميدت هذه الإحصائية الصادمة؛ أن كل يومين ننتج كمية البيانات التي تم إنتاجها في المجمل منذ بداية الحضارة حتى عام 2003. ومنذ ذلك الحين، تسارع إنتاج البيانات. على الرغم من أن معالجة تعددية البيانات (mass data) ليست بأمر جديد، إلا أن الضجة المحيطة بمصطلح “البيانات الضخمة” (big data) الأكثر شيوعًا لم تبدأ إلا في السنوات الأخيرة [1]. لكن يضيع الكثير من الناس بسرعة في غابة البيانات المتزايدة باستمرار، وغالبا ما تكون أساليب معالجة البيانات مبهمة للغاية.

…لا يمكن حساب الصدف

… أن “المزيد من البيانات لا تعني المزيد من المعرفة”، هكذا صرح جيرد أنتيس بإيجاز في مقابلة مع Tagesanzeiger. ينتقد المختصون بالرياضيات بشدة الضجة حول استخدام البيانات الضخمة لأن كتلة البيانات تؤدي إلى احتمالية أعلى للارتباطات العشوائية. على سبيل المثال، يظهر استهلاك الفرد من الجبن وعدد الوفيات الناجمة عن التشابك في شراشف الأسرة في الولايات المتحدة الأمريكية منحنى متماثل. من المحتمل أن يستخلص التحليل الآلي استنتاجات من هذا النوع، في حين يدرك العالم على الفور أنها مصادفة. [2]

ومع ذلك، وفقا لكثير من داعمي البيانات الضخمة، لم تعد هناك مصادفات. وهم يعتقدون أنه إذا كانت كمية البيانات المتوفرة كبيرة بشكل كفاي، فانه يمكن حساب كل العلاقات المتبادلة مسبقًا بمساعدة معالجة الجهاز أو التعلم العميق ومع تطبيق النوع الصحيح من التحليلات. وتعد الخبرة السابقة ومجموعات التدريب المتاحة لذلك كافية، مع وجود نسبة خطر ضئيلة من نطاقات الخطأ بسبب البيانات المفقودة أو غير ذات الصلة. ومع ذلك، فإن مثل هذا الاستنتاج قاتل. وبطبيعة الحال، يمكن استكشاف مناطق معينة، وفترات من الزمن، والعلاقات المتبادلة، وما إلى ذلك، بسهولة أكبر، وهو أمر من المحتمل حدوثه بشكل أو بآخر. ولكن، هذا بالتأكيد لا يعني أن الصدف أو الانحرافات الهامة مستحيلة. على سبيل المثال، كيف نتوقع ان تحليل البيانات التي تم جمعها من الماضي ينبئ بحوادث المرور في المستقبل بشكل دقيق؟ أو الأمراض، لأن المعلومات المتعلقة بتطور المرض – وبالتالي بيانات المرضى الرقمية – قد تكون غير كاملة وغير متناسقة و/ أو غير دقيقة. [2]

…قد يهدد تحليل البيانات الحياة

خاصة فيما يتعلق بمجال الطب، فإن جيرد أنتيس ليس وحده الذي يحذر من مخاطر البيانات الكبيرة والذكاء الاصطناعي. فإذا تم اختيار طريقة علاج غير صحيحة بسبب نتائج تحليلات البيانات الكبيرة والتعلم الآلي، يمكن أن ينتج آثارا” مدمرة – بالنسبة للمرضى ولنفق الاموال وللسمعة. فمع توفر هذا الكم الهائل من البيانات، قد لا يتم حتى اكتشاف الارتباطات الحقيقية والتناقضات. التناقضات والارتباطات يمكن أن تهدد أو تنقذ الأرواح. [2]

تصدرت IBM عناوين الأخبار السلبية مرة أخرى مؤخرًا عندما قامت شركة STAT الإعلامية بتحليل وثائق IBM الداخلية لتقرير يتلخص في أن Watson for Oncology قد أوصت مراراً بعلاجات السرطان “غير آمنة وغير صحيحة”. كما زعم التقرير أن موظفي IBM والمشرفين كانوا على علم بذلك. وعلى الرغم من أنه لم يثبت حدوث أي وفيات نتيجة لهذه المقترحات، فقد قررت العديد من المستشفيات المرموقة التوقف عن استخدام التكنولوجيا التي تبلغ تكلفتها ملايين الدولارات. [3]

وفي هذا الصدد، اصبحت العلامات الأولى لإعادة التفكير والنهج الأكثر عقلانية في هذا المجال واضحة بالفعل. وأخيراً اقترب الضجيج الغير محدود والذي استمر من عامين إلى ثلاثة أعوام فيما يتعلق بجهاز Watson العجيب لشركة آي بي إم في مجال الطب الى نهاية. وسيحدث هذا أيضًا في العديد من المجالات المشابهة الأخرى – على أقصى تقدير، عندما يدرك الناس أهمية الحقائق والنتائج الموثوقة بدلاً من التسويق الذاتي والوعود الكبيرة من قبل مجموعات التكنولوجيا العالمية المعروفة بمنتجاتها التجريبية التي لا تزال تستخدم في كثير من الأحيان. من المؤكد أنه يمكن نقل التطورات المذكورة أعلاه في مجال الطب بشكل متطابق، تقريبا إلى سوق الموارد البشرية الرقمية، على سبيل المثال التوفيق بين الوظائف والمهارات.

المعرفة الجديرة بالثقة تأتي من الخبراء

منذ أكثر من خمس سنوات، نشر كورنيل بروخر عمله المثير “إعادة التفكير في البيانات الضخمة” والتي وصف فيها أنصار البيانات الكبار بأنهم حمقى. لقد تبنينا في JANZZ وجهة نظر مماثلة من البداية. من الصعب اكتساب المعرفة في مجال الوظائف والسير الذاتية ببساطة من خلال التعلم الآلي وحده، بما في ذلك بيانات المهن الأكثر تعقيدًا. وهناك خطأ واضح فيمن يقول خلاف ذلك، بغض النظر عن مدى تكرار الإعلان عن الأفكار والمنتجات نفسها وتسويقها؛ حتى إذا تم استثمار المزيد من الأموال في مثل هذه التقنيات من ذي قبل.

ولهذا السبب، وعلى الرغم من الاستثمارات الكبيرة، لا تزال النتائج التي تستند إلى “نهج البيانات الضخم” غير كافية إلى حد كبير، ولم تتحسن بالكاد على مدى السنوات الأخيرة، بغض النظر عن حجم سجلات البيانات المستخدمة، على سبيل المثال. LinkedIn وIBM & Co. وستصبح النتائج من التعلم الآلي عرضة للخطأ بشكل متزايد كلما استمر إضافة المزيد من العوامل والمتغيرات – وبالتالي القواعد والعلاقات المعقدة، مع وجود خطر وقوع حوادث الارتباطات الخاطئة أو حتى السببية المفترضة. من ناحية أخرى، تُمكِّن الرسوم البيانية أو الأنطولوجيات المعرفية من تحديد المعرفة واستخدامها بطريقة عميقة ومنظّمة. وتعد المعرفة الناتجة من هذه الرسوم البيانية جديرة بالثقة ويمكن التحقق منها بدرجة عالية لأن هذه المعرفة يتم تخزينها وتوصيلها بطريقة منظمة بواسطة مبتكريها من الخبراء المختلفين – بدلاً من أن يتم حسابها من قبل علماء الكمبيوتر الذين هم خبراء في البرمجة. ولكن ليس، على سبيل المثال، في مجالات الطب بما أن الرسوم البيانية للمعرفة تعكس العلاقات بين العديد من المجالات المختلفة، إلا أنها يمكن أن توفر نتائج وتوصيات بحث ملائمة ودقيقة. على سبيل المثال، في مجال بيانات المهن: يستطيع الرسم البياني المعرفي تميز الفروق والصلات بين الاختصاصات والخبرات والمهام والتخصصات والتعليم، إذ يأخذ في الاعتبار، على سبيل المثال، فأنه للحصول على الوظيفة “J” مع التدريب المهني “A”، فإن المهارة “S” مهمة للغاية. إذا أخذنا  Senior Cloud Architect  على سبيل المثال. يستطيع الرسم البياني للمعرفة التعرف على هذا المسمى الوظيفي والتمييز بأن درجة الماجستير في علوم الكمبيوتر يمكن أن تقود إلى الحصول على هذا المنصب يومًا ما إذا كان المتقدم للوظيفة لديه أيضًا مهارة “تطوير حلول السحابة” (cloud solution development) وعدة سنوات من الخبرة المهنية.

تعتمد Google أيضًا على الخبراء وعلى الرسم البياني المعرفي لبيانات المهنة

أعلنت شركة Google عن ذلك عندما أطلقت الرسم البياني المعرفي “Google Cloud Jobs API”، والذي يستند إليه البحث الخاص بـ Google for Jobs (انظر „Google تطلق انطولوجية محرك البحث عن الوظائف المدعوم. ماذا بعد ذلك؟”). أدركت Google حينها أن اتباع نهج قائم على الأنطولوجيا سيعطي نتائج بحث أفضل. في حالة البحث الدلالي المستند إلى معرفة الرسم البياني المعرفي، فإن البحث عن وظيفة “مساعد إداري” لن يؤدي إلى إضافة نتائج تشبه مصطلح البحث فقط، بل ايضا مصطلحات مثل “مساعد إداري الموارد البشرية” أو ” مساعد إداري البرمجيات”. يمكن للتحليل البيانات الضخمة أن يحدد الارتباطات العشوائية وبالتالي يشير إلى وظائف مختلفة تمامًا لا تتطلب سوى متطلبات مهارية مماثلة (ليس فقط المهندسين، على سبيل المثال، ولكن يحتاج أيضًا المساعد الإداري إلى معرفة ميكروسوفت أوفيس – Microsoft Office).

لمعرفة الفرق وبالتالي الحصول على معرفة حقيقية في البحث عن وظيفة وفهم عام للمهن وعلاقاتها المتداخلة، يعتمد بشكل عام فقط على الرسم البياني المعرفي. صرح Matt Moore، مدير منتجات Google Cloud، عن السبب وراء تقديم تطبيقات Google Cloud Jobs API: “نريد أن نقدم تجربة بحث أفضل عن الوظائف لجميع أصحاب العمل والمرشحين، لأن توظيف الأشخاص المناسبين هو أحد أهم الأشياء التي تحتاج شركتك القيام بها. “[4]

…البشر فقط لديهم المعرفة اللازمة لفهم الطبيعة البشرية

هذا يثير السؤال حول من الذي يمكن أن تثق به حقا عندما يتعلق الأمر بهذه المهمة الدقيقة؛ اختيار الموظفين. إنها قصة لا تنتهي أبدًا: وفقًا للسيرة الذاتية، فإن مقدم الطلب هو المرشح المثالي، ولكن للأسف فهو غير مناسب بشكل شخصي. إن وضع مثل هذه الاستنتاجات، التي لا تقترحها البيانات (الرقمية) المتوفرة، يتطلب مستوى ألا وهو دور متخصصو الموارد البشرية، البشر. يمكن للأدوات التكنولوجية إدارة السير الذاتية وترتيبها وفقًا لنتائج واضحة مثل التعليم والمهارات والخبرة وما إلى ذلك، وذلك إذا أمكن التحكم في تدفق البيانات وتقيمها بشكل صحيح. حتى المرشح الأفضل وفقا للوثائق يمكن أن يختفي فجأة في وسط الحشد المتقدم بسبب العدد الكبير من المعايير الخاطئة أو التي أسيء فهمها. وقد لا تنتمي أفضل السير الذاتية دائمًا إلى أفضل مرشح. فهناك اعتقاد راسخ أنه حتى هذا العامل البشري المتبقي سيتم منعه أخيرًا من عمليات الاختيار، وتحاول المزيد والمزيد من شركات التكنولوجيا والشركات الناشئة تحويل هذا البعد البشري الى بعداً رقميًا والتحكم فيه باستخدام الذكاء الاصطناعي. وكما أشرنا، يتم ذلك عل الأغلب باستخدام أساليب غير مناسبة، وحتى قبل تمكين العملية، كان من الممكن استخدام البيانات الرقمية الحالية وتقييمها بشكل صحيح. ويتفق على هذا إلى حد كبير المتخصصون ورواد التقنيات الذين كانوا يتعاملون مع العمليات والمنتجات الجادة والمرنة في الموارد البشرية الرقمية لعدة سنوات – ليس فقط لأن جوجل أدخلت هذا القطاع من السوق. [5]

البيانات الضخمة تحد من تطور المعرفة

لذا، فإن المزيد من البيانات لا تعني في الحقيقة المزيد من المعرفة. يجب تنظيم المعرفة وتخزينها والتحقق منها. ويجب تدخل الأشخاص الذين يتمتعون بالخبرة المناسبة. لذلك، لابد من توخي الحذر في مكافحة تدفق البيانات التي لم يعد من الممكن تنظيمها والتي تؤدي إلى ترابط عشوائي. وقد لخص ألكسندر ويزنر- جروس، وهو عالم في جامعة هارفارد ومعهد ماساتشوستس للتكنولوجيا (MIT)، الأمر المثير للاهتمام، “لعل أهم الأخبار في يومنا هذا هو أن قواعد البيانات – وليس الخوارزميات – قد تكون العامل الرئيسي للحد من تنمية المستوى البشري للذكاء الاصطناعي “. [6]

لذا، فإن علامات التقدم المستقبلي تكمن في محتوى المعرفة فوق كل شيء، وليس في كمية البيانات التي سيتم استخراج هذه المعرفة منها. وختاماً، فمن المرجو والمطمئن أن الخبراء أو الآليات القائمة على الخبرة الحقيقية في العديد من المجالات الهامة، مثل الطب أو التوظيف، يمكن أن تصدر أحكامًا جديرة بالثقة وصحيحة. كل هذا يجعل الضجة حول البيانات الكبيرة والذكاء الاصطناعي في مجال الموارد البشرية أكثر تحملاً. ومهمتنا في JANZZ.technology -هو “تحويل البيانات الكبيرة إلى بيانات ذكية” – تكون أكثر حداثة من أي وقت مضى.

[1] بروتشور، كورنيل. 2013. إعادة التفكير في البيانات الكبيرة. Frechen: MITP-Verlag.

[2] ستراومان، فيليكس. «Vieles ist blankes marketing». البيانات الكبيرة. In: Tagesanzeiger (2018) ، Nr. 168، ص 32.

[3] سبيتزر، جولي. 2018. أوصت شركة Watson من IBM بعلاجات السرطان “غير الآمنة وغير الصحيحة”، وفقا لتقرير STAT. URL: https://www.beckershospitalreview.com/artificial-intelligence/ibm-s-watson-recommended-unafe-and-incorrect-cancer-treatments-stat-report-finds.html [2018.08.01].

[4] من الفيديو: Google Cloud Platform. 2017. Google Cloud Jobs API: كيفية تشغيل بحثك عن أفضل المواهب (Google Cloud Next ’17). عنوان URL: https://www.youtube.com/watch؟v=Fr_8oNKtB98 [2018.08.03].

[5] واتسون، كريستين.2018. RecTech تخلق أكثر – وليس أقل – الحاجة إلى اللمسة الإنسانية. URL: http://www.daxtra.com/2018/08/03/rectech-creating-more-need-for-human-touch/؟utm_content=75449136&utm_medium=social&utm_source=twitter [2018.08.09].

[6] ألكسندر ويسنر-جروس. 2016. Datasets على الخوارزميات. عنوان URL: https://www.edge.org/response-detail/26587[2018.07.27]